Apprentissage d'un espace de concepts de mots pour une nouvelle représentation des données textuelles
نویسندگان
چکیده
RÉSUMÉ. Dans cet article nous proposons une technique à base d’apprentissage non-supervisé pour la réduction de dimension des données textuelles. Cette technique est basée sur l’hypothèse que les termes co-occurrants dans les mêmes documents avec les mêmes fréquences sont sémantiquement proches. Suivant cette hypothèse les termes sont d’abord regroupés avec l’algorithme CEM qui est une version classifiante de l’algorithme EM. Les documents sont ensuite représentés dans l’espace de ces groupes de termes. Nous jugeons de la pertinence de cette technique de réduction dimensionnelle avec la tâche du clustering de documents. Et nous montrons la validité de notre approche en comparant le résultat de ce clustering avec ceux obtenus dans l’espace sac-de-mots initial et l’espace des groupes de mots induit par l’algorithme PLSA sur deux collections standard de WebKB et de Reuters.
منابع مشابه
Espaces de représentation multidimensionnels dédiés à la visualisation
Résumé. Dans un système décisionnel, la composante visuelle est importante pour l’analyse en ligne OLAP. Dans cet article, nous proposons une nouvelle approche qui permet d’apporter une solution au problème de visualisation des données engendré par l’éparsité. En se basant sur les résultats d’une analyse des correspondances multiples (ACM), nous tentons d’atténuer l’effet négatif de l’éparsité ...
متن کاملUne nouvelle approche pour la recherche d'images par le contenu
Résumé. On utilise l’analyse factorielle des correspondances (AFC) pour la recherche d’images par le contenu en s’inspirant directement de son utilisation en analyse des données textuelles (ADT). L’AFC permet ici de réduire les dimensions du problème et de sélectionner des indicateurs pertinents pour la recherche par le contenu. En ADT, l’AFC est appliquée à un tableau de contingence croisant m...
متن کاملApprentissage de représentation pour la détection de source dans les réseaux sociaux
RÉSUMÉ. Récemment, divers travaux se sont interessés à la détection de source de diffusion dans les réseaux sociaux : il s’agit de déterminer l’utilisateur à partir duquel une information propagée a initiallement été émise. Dans cet article, nous proposons une nouvelle méthode pour la détection de source de diffusion, basée sur des techniques d’apprentissage de représentation. Plutôt que de s’a...
متن کاملUn modèle d'espace vectoriel de concepts pour noyaux sémantiques
Résumé. Les noyaux ont été largement utilisés pour le traitement de données textuelles comme mesure de similarité pour des algorithmes tels que les Séparateurs à Vaste Marge (SVM). Le modèle de l’espace vectoriel (VSM) a été amplement utilisé pour la représentation spatiale des documents. Cependant, le VSM est une représentation purement statistique. Dans ce papier, nous présentons un modèle d’...
متن کاملUne approche de construction d'espaces de représentation multidimensionnels dédiés à la visualisation
Résumé. Dans un système décisionnel, la composante visuelle est importante pour l’analyse en ligne OLAP. Dans cet article, nous proposons une nouvelle approche qui permet d’apporter une solution au problème de visualisation des données engendré par l’éparsité. En se basant sur les résultats d’une analyse des correspondances multiples (ACM), nous tentons d’atténuer l’effet négatif de l’éparsité ...
متن کاملذخیره در منابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید
ثبت ناماگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید
ورودعنوان ژورنال:
- Document Numérique
دوره 13 شماره
صفحات -
تاریخ انتشار 2008